ChinaXiv 合 作 期 刊 


202302.00145v1 


chinaXiv 
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摘 要 :黄土 高 原 近 20 年 来 苹果 栽植 面积 迅猛 增加 ， 对 区 域 生态 水 文 和 社会 经 济 发 展 均 产 生 了 重要 影响 。 但 
该 区 域 果园 地 块 小 且 场 景 复杂 ， 仅 有 县 /市 尺度 统计 数据 ， 尚 无 苹果 园 实际 的 空间 分 布 信息 。 为 此 ， 本 研究 
建立 了 无 人 机 低空 各 感 影像 专业 数据 集 。 融 合 迁 移 学 习 与 深度 学 习 方法 ， 将 残 差 神经 网 络 ResNet34 网 络 迁 
移 到 Linknet 网 络 ， 得 到 R_34_Linknet 网 络 。 将 R_34_Linknet 网 络 与 5 种 常用 的 深度 学 习 语 义 分 割 模型 Seg- 
Net, FCN_8s, DeeplabV3+, UNet 和 Linknet 应 用 于 黄土 高 原 苹 果园 空间 分 布 提取 ， 表 现 最 好 的 模型 为 R_ 
34_Linknet， 其 在 测试 集 上 的 调和 平均 值 下 为 87.1%， 像素 准确 度 PA 为 92.3%， 均 交 并 比 MIoU 为 81.2%， 频 
权 交 并 比 FWIoU 为 85.7%， 平 均 像 素 准确 度 MPA 为 89.6%。 将 空间 金字 塔 池 化 结构 (Atrous Spatial Pyramid 
Pooling, ASPP) 与 R_34_Linknet 网 络 相 结合 ， 扩 大 网 络 的 感受 野 ， 得 到 R_34_Linknet_ASPP 网 络 ; 然后 对 
ASPP 结构 进行 改进 ， 得 到 R 34 Linknet ASPP+ 网 络 。 对 比 三 种 网 络 性 能 ， 表 现 最 优 的 为 R_ 
34 Linknet ASPP-*, ZElliXfE E F,79 86.396, PA 7g 94.796, MIoU 为 82.7%，FWIoU X 89.0%, MPA X 92.396. 
使 用 R_34_Linknet_ASPP+ 在 长 武具 王 东 沟 和 白水 县 通 积 村 提取 苹果 园 面积 精度 分 别 为 94.22% 和 95.66%。 本 
研究 提出 的 R_34_Linknet_ASPP+ 方 法 提取 到 的 苹果 园 更 加 准确 ， 芋 果园 地 块 边缘 处 效果 更 好 ， 可 作为 黄土 
高 原 苹果 园 空间 分 布 制图 等 研究 的 技术 支撑 和 理论 依据 。 
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退耕 还 林 CE) 工程 实施 20 多 年 以 来 ,黄土 
高 原 苹 果 产 业 发 展 迅猛 ， 已 经 发 展 成 为 中 国力 至 全 
球 最 大 的 优质 苹果 生产 基地 。 以 2018 年 为 例 ， 
黄土 高 原 苹果 栽培 面积 和 产量 分 别 为 渤海 湾 产 区 
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的 2.11 们 和 1.47 倍 中 。 苹 果 产 业 的 迅猛 发 展 一 方 
面 极 大 增加 了 农民 收入 ， 助 力 脱 贫 攻 坚 与 乡村 振 
兴 ， 男 一 方面 则 不 可 避免 地 改变 了 区 域 生态 水 文 
过 程 ， 造 成 了 负面 的 水 循环 效应 2 。 通 过 合理 配 
置 苹果 园 的 分 布 格局 ， 实 现 苹 果 产 业 适 水 发 展 成 
为 黄土 高 原 苹 果 产 业 可 持续 发 展 的 关键 所 在 。 但 
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是 黄土 高 原 地 形 复杂 多 变 ， 苹 果园 空间 格局 破 
雁 ， 找 到 一 种 快速 准确 获取 区 域 苹 果园 空间 分 布 
的 方法 ， 是 该 区 域 苹 果 适 水 发 展 的 重要 前 提 。 

传统 黄土 高 原 苹果 园 空间 种 植 面 积 信息 的 获 
取 主 要 依靠 地 方 行政 单位 统计 ， 各 级 上 报 或 者 按 
一 定 比例 抽样 调查 来 获得 “ 。 这 些 方法 不 但 耗 
财 、 耗 物 ， 而 且 难 以 获取 流域 和 区 域 果园 种 植 准 
确 面积 。 随 着 无 人 机 遥感 和 卫星 遥感 平台 的 快速 
发 展 ， 传 统 机 器 学 习 方 法 (如 支持 向 量 机 提取 
法 、 随 机 和 森林 提取 法 、 最 大 似 然 提取 法 ) hei 
RIER ^U 已 被 广泛 用 来 提取 苹果 园 空间 分 布 信 
息 ， 但 是 这 些 方法 在 提取 精度 差 和 效率 方面 还 存 
在 不 足 。 目 前 ， 深 度 学 习 是 人 工 智 能 领域 的 研究 
热点 ， 卷 积 神经 网 络 作为 深度 学 习 的 重要 分 文 ， 
在 图 像 分 类 ”2 Rn LA I UST 等 领域 取得 了 
许多 成 果 。 分 类 网 络 后 3 层 都 是 一 维 向 量 ， 计 算 
方式 采用 全 连接 ， 因 此 丢失 了 二 维 信息 ， 而 分 割 
网 络 将 后 3 层 全 部 转换 为 1X1 的 卷 积 核 所 对 应 同 
等 向 量 长 度 的 多 通道 卷 积 层 ， 即 把 全 连接 层 换 成 
全 卷 积 层 。 此 外 ， 采 用 全 卷 积 神经 网 络 (Fully 
Convolutional Networks, FCN) 的 语义 分 割 是 逐 
像素 的 分 类 ， 能 够 实现 遥感 影像 的 精准 分 制 ， 相 
对 于 传统 方法 以 及 卷 积 神经 网 络 ， 在 植被 提取 上 
具有 明显 优势 ”。 

Olaf $ fr FCN 的 基础 上 修改 并 扩张 了 
FCN 网 络 得 到 UNet 网络 ， 使 其 在 使 用 少量 数据 
进行 训练 的 情况 下 能 够 得 到 精确 的 分 制 结 果 US. 
编码 网 络 和 解码 网 络 的 对 称 结构 构成 了 SegNet 
的 主要 部 分 ， 除 此 之 外 还 有 一 些 输 出 层 '"9。 
FCN、UNet、SegNet 网 络 的 主干 部 分 为 超 分 辨 
率 测试 序列 (Visual Geometry Group, VGG) 中 
的 VGG16 "”"， 但 是 当 网 络 达到 一 定 深 度 时 ， 会 
造成 退化 问题 ， 表 现 反 而 不 如 浅 层 网 络 ， 而 将 
ResNet 网络 引入 图 像 分 割 领域 ” ， 很 好 地 解决 
了 这 种 退化 问题 ， 提 高 了 图 像 分 类 的 提取 精 


Deeplab 系列 网 络 层 数 太 多 ， 而 Chaurasia 等 ° 
提出 的 LinkNet 网 络 模型 层 数 太 少 ， 并 且 LinkNet 
网 络 中 没有 ASPP 结 构 ， 导 臻 最 终 的 分 割 效果 也 
A P, 

目前 ， 虽 然 卫星 遥感 是 大 面积 农作物 分 类 的 
主要 手段 ， 但 存在 成 本 昂贵 、 回 访 周期 长 和 空间 
分 辩 率 低 等 问题 ， 且 过 于 依赖 卫星 过 境 时 的 天 气 
状况 ， 实 时 性 和 准确 性 均 受 限 。 而 无 人 机 遥感 具 
有 空间 分 辩 率 高 、 周 期 短 、 灵 活性 高 、 受 云层 和 
天 气 影响 小 等 优势 ， 弥 补 了 传统 卫星 遥感 的 不 
足 ， 成 为 目前 小 区 域 农业 遥感 数据 获取 的 主要 手 
段 。 近 年 来 ， 不 需要 人 工 选 取 特 征 参数 、 并 且 可 
以 充分 利用 无 人 机 超 高 分 辨 紊 的 特点 的 深度 学 习 
语义 分 割 算法 的 出现 和 发 展 为 超 高 分 辨 率 
无 人 机 图 像 分 割 与 分 类 提供 了 新 的 思路 。 因 此 ， 
本 研究 针对 黄土 高 原 苹果 园地 块 小 且 空间 分 布 格 
局 破碎 于， 采用 无 人 机 获取 苹果 园 遥 感 影像 ， 
将 RestNet34 迁移 到 Linknet 网络， 构建 人 
34 Linknet 网 络 ， 并 结合 ASPP 用 于 黄土 高 原 无 
人 机 影像 苹果 园 的 提取 ， 通 过 试验 证 明 方法 的 有 
效 性 ， 以 为 厘清 黄土 高 原 苹 果园 分 布 格局 提供 技 
ARSE 
2 材料 与 方法 


2.1 试验 区 域 与 数据 集 构建 


研究 区 域 为 黄土 高 原 苹果 主要 栽植 区 。 该 区 
最 冷 月 平均 气温 低 于 -5.0*C、 月 平均 气温 高 于 
10°C 不 超 5 个 月 、 年 平均 降水 量 小 于 470 mm 7", 
具有 典型 的 大 陆 季风气候 特征 。 在 地 处 黄土 高 原 
的 12 个 市 /县 选择 不 同 林 龄 、 不 同 品种 、 不 同 管 
理 方式 的 28 个 苹果 园 采 集 点 作为 研究 对 象 ， 其 
分 布 如 表 1 所 示 ， 采样 时 间 为 2020 年 5 月 下 旬 至 
2020 年 10 月 上 旬 。 

飞行 平台 为 大 疆 御 2 Pro 四 旋翼 无 人 机 系统 ， 


度 ”。 为 了 解决 特征 图 尺寸 和 感受 野 之 间 的 了 矛 
JE, Deeplab 系列 引入 了 空间 金字 塔 池 化 结构 
(Atrous Spatial Pyramid Pooling, ASPP) ^, 但 


三 轴 稳 定 云 台 ， 俯 仰角 度 为 -90?~ +30°, FOL 
IG. Wr. DERE, A BEIM A907 g。 最 大 
水 平 飞行 速度 72 kmh, 最 长 飞行 时 间 为 31 min. 
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表 1 黄土 高 原 不 同市 /县 采样 点 数量 分 布 


Table 1 Quantity distribution of sampling points in different counties on the Loess Plateau 


县 WB GET 扶风 KEA HM 


"pk WI 延安。 FPM "GE XE RE 


采样 点 数量 /个 3 1 3 2 2 


3 2 6 2 1 2 1 


影像 传感器 为 哈 苏 1 英寸 CMOS 可 见 光 RGB 48 
机 ， 有 效 像素 2000 万， 视角 约 77"， 机 载 内 
存 64 GB。 拍 摄 时 ， 天 气 均 上 晴朗， 地 面 风 速 均 小 
于 2 级 ,满足 航 摄 要 求 。 于 飞行 高 度 80~120 m, 
采集 苹果 园 图 像 300 幅 ， 预 处 理 之 后 图 像 像素 为 
256X480， 使 用 Python 第 三 方 开源 软件 Labelme 
进行 人 工 标注 。 将 图 像 中 的 像素 分 为 苹果 园 和 背 
景 两 类 ，ID 值 分 别 为 0 和 1。 采 集 的 图 像 包 含 各 
种 场景 苹果 园 以 及 各 种 代表 性 干扰 的 图 像 ， 例 如 
不 同 的 光照 强度 、 山 的 阴 面 和 阳 面 、 背 景 植物 的 
干扰 、 果 园 长 势 不 同 和 苹果 有 无 套 袋 的 变化 等 具 
有 黄土 高 原 苹 果园 多 个 特征 的 图 像 。 

航拍 时 ， 因 风速 变化 、 光 照 变化 以 及 无 人 机 
拍照 过 程 中 飞行 姿态 的 调整 都 会 影响 影像 的 清晰 
度 ， 本 研究 利用 几何 变换 和 饱和 度 变换 扩充 数据 
集 ， 通 过 饱和 度 变 换 (0.1、0.5、1.5) 、 图 像 旋转 、 
缩小 填 零 和 放大 截取 的 方法 将 采集 的 图 像 扩 充 了 
2 倍 生 成 了 600 幅 新 图 像 ， 加 上 原始 的 300 幅 图 
像 ， 数 据 集 总 共 为 900 幅 。 


为 了 更 好 地 利用 训练 集 数据 ， 本 研究 采用 9 
折 交 叉 验 证 法 划分 数据 集 。 首 先 将 全 部 图 像 随机 
分 成 9 份 ， 每 份 100 幅 图 像 ， 每 份 图 像 从 原 图 和 
扩大 后 图 像 按照 4:6 比例 挑选 ， 每 份 图 像 包含 各 
种 场景 的 全 果园， 含有 间作 有 果园、 山地 采 园 、 不 
同 果 龄 果园 和 复杂 植物 背景 下 果园 等 ， 然 后 不 重 
复 地 每 次 取 其 中 1 份 做 测试 集 ， 其 余 8 份 做 训练 
集 ， 如 此 循环 9 次 ,保证 所 有 的 图 像 都 进行 过 训 
练 和 测试 ， 得 到 9 个 评价 模型 ， 最 后 将 9 次 评价 
的 性 能 均值 作为 最 后 评价 结果 。 


2.2 苹果 园 整体 提取 方案 


图 1 为 本 人 研究 苹果 园 提 取 的 整体 方案 ， 无 人 
机 影像 经 过 添加 ASPP 的 R 34 Linknet 网 络 ， 
ASPP 位 于 R 34 Linket 网 络 的 编码 器 与 解码 器 中 
间 ，ASPP 在 不 引入 额外 参数 的 前 提 下 可 以 增 大 
网 络 感 受 野 和 提升 边缘 分 割 效果 。 训 练 时 ， 将 解 
码 器 输出 的 预测 图 与 GT 标签 经 损失 函数 进行 对 
比 ， 直 至 得 到 最 小 值 ， 若 不 是 最 小 值 则 进行 反 向 
传播 调 参 ， 得 到 最 终 的 预测 图 。 


图 1 苹果 园 提 取 整 体 方案 


Fig. 1 The overall extraction scheme of apple orchard 


2.3 R. 34 Linknet #4 ASPP 
Linknet 网 络 在 U 型 全 卷 积 神经 网 络 的 基础 


上 引入 了 ResNet， 实 现 了 像素 级 的 分 类 。 原 始 的 
LinkNet 使 用 了 ResNet18 作为 编码 器 ， 能 够 在 移 
动 设 备 上 实施 运行 的 低 功 耗 语 义 分 制 网 络 ， 但 是 
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准确 度 不 高 且 表 征 能 力 较 弱 。 本 研究 分 别 把 
RestNet34, RestNet50, RestNetl01, RestNet152 
迁移 到 LinkNet 网 络 作为 编码 器 ， 试 验 结果 表明 
在 本 研究 数据 集 上 ，RestNet34 相 较 于 Rest- 
Net50, RestNetl01, ResNetl52 效果 稍 好 ， 且 
ResNet34 网 络 结构 更 简单 、 参 数量 更 少 ， 因 此 ， 
本 人 研究 选择 ResNet34 作 为 Linknet 的 编码 右 ， 构 
成 R_34_Linknet， 提 升 网 络 的 整体 性 能 和 精度 。 
R 34 Linknet 网 络 由 两 部 分 组 成 ， 第 一 部 分 是 编 
码 器 ， 从 一 个 初始 块 开 始 ， 对 输入 图 像 进行 卷 
耻 ， 卷 积 核 大 小 为 7X7， 步 长 为 2， 初 始 块 后 接 
一 个 3X3 步 长 为 2 的 最 大 池 化 层 ， 后 面 的 部 分 由 
4 个 编码 层 组 成 ; 第 二 部 分 是 解码 硕 ， 解 码 层 由 
1 层 反 卷 各 和 2 层 卷 积 组 成 ， 共 4 个 解码 层 。 

在 R 34 Linknet 网 络 训练 时 ， 将 3 X H X 
刺 的 无 人 机 图 像 通过 第 1 个 步 长 为 2、 卷 积 核 尺 
才 为 7X7、 通 道 数 为 64 的 卷 积 层 计算 ， 输 出 像 
素 尺寸 变 为 人 x， 通道 数 变 为 64。 计 算 方 法 
如 公式 (1)。 

X =f (YX Q E + B) (1) 


其 中 ,XX' 为 第 t 层 输出 的 第 j 个 特征 图 ; /为 
激活 函数 ReLU; nh ARB BE X'S 
t- 1 层 的 第 i 个 通道 影像 ，E; 为 第 t 层 卷 积 核 ; Q 
为 卷 积 运算 符号 ; B' 为 第 1 层 卷 积 核 后 第 j 个 特征 
图 的 偏 置 。 

为 了 增强 模型 的 鲁 棒 性 ， 减 少 参 数 的 数量 ， 
防止 过 拟 合 现象 的 发 生 ， 在 每 个 卷 积 层 后 面 增加 
最 大 池 化 层 。 池 化 步 长 为 2， 尺 寸 为 3X3。 图 像 
经 池 化 操作 之 后 ， 尺 寸 变 为 全 Xx 也， 通道 数 仍 
为 64。 

在 编码 器 中 ，4 个 编码 层 输出 特征 图 通道 数 
分 别 为 64、128、256、512， 扩 展 到 编码 之 前 的 
8 倍 。 在 解码 器 中 ，4 个 解码 层 输入 特征 图 通道 
数 分 别 为 512、256、128、64， 特 征 图 经 过 解码 
器 后 ， 尺 寸 和 通道 数 变 为 与 编码 前 相同 。 
解码 器 的 输出 图 像 进入 反 卷 积 层 ， 可 以 还 原 


特征 图 尺寸 大 小 ， 同 时 节约 计算 成 本 。 特 征 图 经 
过 解码 操作 之 后 图 像 尺寸 还 原 为 输入 网 络 之 前 大 
NH X 丈 ， 通 道 数 变 为 1， 此 时 输出 苹果 园 提取 
的 预测 图 。 

与 传统 的 卷 积 算法 相 比 ， 空 洞 卷 积 能 够 在 不 
增加 参数 与 计算 量 的 情况 下 ， 扩 大 网 络 的 感受 
野 ， 更 精确 地 定位 目标 ， 更 好 地 捕捉 多 尺度 上 下 
文 信息 ”"。 由 空洞 卷 积 获得 的 特征 图 与 输入 特 
征 图 尺寸 相同 ,但 每 个 输出 的 神经 元 拥有 更 大 的 
感受 野 ， 因 此 可 以 获取 更 多 细节 信息 同时 降低 分 
辩 率 的 损失 。 空 洞 卷 积 可 以 设置 不 同 空洞 率 ， 其 
具体 操作 为 在 卷 积 核 中 插入 0， 使 卷 积 核 尺 寸 扩 
大 ， 因 此 设置 不 同 空洞 率 时 ， 网 络 感 受 野 就 不 
同 ， 不 同 尺度 上 下 文 信息 可 以 被 更 好 地 获取 。 

空洞 卷 积 解决 了 感受 野 和 特征 网 分 辩 率 之 间 
的 矛盾 ， 在 卷 积 神经 网 络 中 ， 决 定 某 一 层 输 出 结 
果 中 一 个 元 素 所 对 应 的 输入 层 的 区 域 大 小 ， 被 称 
为 感受 野 。 通 常 来 说 ， 大 感受 野 的 效果 要 比 小 感 
受 野 更 好 。 输 入 图 片 的 感受 野 约 定 为 1， 即 
RF = 1， 计 算 如 公式 (2) 所 示 。 

RF, ,1 = RF, + (kernel size — 1) X stride (2) 

其 中 ，RP, ,1 为 第 n+1 层 特征 图 感受 野 ; 
RF, 为 第 n 层 特征 图 感受 野 ，kernel_size 为 卷 积 核 
尺寸 ; stride 为 卷 积 核 步 长 。 

假设 原始 特征 为 feat0， 卷 积 核 尺 寸 为 3X3， 
首先 用 空洞 率 为 0 的 空洞 卷 积 生成 featl1 ，featl 上 
相对 feat0 的 感受 野 为 3X3; 然后 使 用 空洞 率 为 2 
的 卷 积 计算 featl 生成 feat2， 让 第 一 次 空洞 卷 积 
的 卷 积 核 尺寸 等 于 第 二 次 空洞 卷 积 一 个 像素 点 的 
感受 野 ，feat2 中 一 个 点 对 应 featl 中 3X3 区 域 的 
言 息 ， 则 生成 的 feat2 的 感受 野 为 7X7; 第 三 次 
处 理 同上 ， 第 二 次 空洞 卷 积 的 卷 积 核 尺 寸 等 于 第 
三 次 空洞 卷 积 一 个 像素 点 的 感受 野 ， 生 成 的 feat3 
中 每 个 点 对 应 featl 中 7X7 的 信息 ， 采 用 空洞 率 
为 3 的 卷 积 ，feat3 每 一 点 的 感受 野 为 15X15。 空 
洞 率 对 应 卷 积 核 尺 寸 计 算 如 公式 (3) 所 示 。 

Kon = Kop + (Koa — 1)(rate - 1) (3) 

其 中 ，K,, 为 新 卷 积 核 尺 寸 ; ,为 原始 卷 积 
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BIR; rale 为 空洞 率 大 小 。 

ASPP 由 4 个 不 同 空洞 率 的 空洞 卷 积 和 一 个 
寺 征 融合 层 组 成 。 在 同一 Input Feature Map 的 基 
础 上 ， 并 行使 用 4 个 空洞 卷 积 ,空洞 率 设置 为 
r={6，12，18，24 }， 核 尺寸 为 3X3， 最 后 将 
不 同 卷 积 层 得 到 的 结果 做 像素 加 融合 并 到 一 起 。 

ASPP+ 在 ASPP 的 基础 上 向 每 个 空洞 卷 积 后 
面 添加 了 BN 层 和 把 ASPP 中 的 普通 卷 积 替换 为 
深度 可 分 离 卷 积 (Deep Separable Convolution, 
DSC)，ASPP+ 和 ASPP 空 洞 率 也 有 所 不 同 。 主 要 
包含 以 下 几 部 分 : 中 一 个 1X1 卷 积 层 ， 以 及 三 
个 3X3 的 空洞 卷 积 ， 其 rate 设 置 为 16，12， 
18| ， 并 且 含 有 BN 层 ; @ 一 个 全 局 平均 池 化 得 
到 image-level 特 征 ， 然 后 输入 1X1 卷 积 ， 再 采 
用 双 线 性 差 值 还 原 到 原始 大 小 ; OCKOM] 
的 4 个 不 同 尺度 的 特征 图 在 通道 维度 合并 在 一 
起 ,然后 输入 1X1 的 卷 积 进行 融合 得 到 256 通 道 
的 新 特征 图 。 


2.4 评价 指标 


2.4.1 果园 提取 效果 评价 指标 

使 用 像素 精度 (Pixel Accuracy, PA), 、 频 权 
AE Jf tk (Frequency Weighted Intersection over 
Union, FWIoU), 、 均 交 并 比 (Mean Intersection 
over Union，MIoU) 、 均 类 像素 精度 (Mean Pix- 
el Accuracy, MPA) 作为 提取 效果 评价 指标 。 荚 
果园 提取 被 视 为 语义 分 割 问题 ， 将 苹果 园 像 
素 取 0， 背 景 像素 取 1。 

苹果 园 提取 的 局 值 如 公式 (4) 所 示 。 
PXR 
P+R 


其 中 ，P、R 分 别 为 苹果 园 该 类 别提 取 的 精 
确 率 和 召回 率 。 
像素 精度 计算 如 公式 5) 所 示 。 


F,-2x x 100% (4) 


PA = 一 x 100% (5) 


频 权 交 并 比 计算 如 公式 (6) 所 示 。 


k 


FWIoU = x 100% (6) 


k k 


p l Ps 
D 2 25 一 
均 交 并 比 计算 如 公式 (7) 所 示 。 


二 Pa 
MIoU = 4—r 34 x 100% (7) 


5 
"^N, * 2p, = Pi 
= 


j=0 


均 类 像素 精度 计算 如 公式 (8) 所 示 。 
NEN. 0 
MAP p: — x 100% (8) 


Sp 


j-0 


i 


其 中 ,表示 目标 的 类 别 数 ， 共 有 + 1 个 类 
别 〈 含 目标 和 背景 ); i、j 均 表示 类 别 号 ; p 
正确 分 类 的 像素 ; py 和 pp; 均 表示 分 类 错误 的 
像素 。 
2.4.2 面积 精度 评价 

选取 长 武 县 王 东 沟 和 白水 县 通 积 村 这 两 个 研 
究 区 对 语义 分 割 模型 提取 的 苹果 园 进行 面积 精度 
评价 。 目 视 解 译 出 长 武 县 王 东 沟 和 白水 县 通 积 村 
苹果 园 面积 分 别 为 139.41 和 44.97 hm， 因 此 将 
模型 提取 苹果 园 面积 与 目 视 解 译 面积 进行 比较 分 
析 。 本 研究 提出 一 种 基于 Python 第 三 方 开源 库 
PIL FII OpenCV 的 方法 对 语义 分 割 方法 提取 的 苹 
果园 进行 面积 计算 。 首 先 使 用 PIL PI OpenCV 将 
RGB 图 像 转 换 为 灰 度 图 像 ， 再 利用 numpy.where 
的 广播 机 制 统计 “苹果 园 ” 这 一 类 别 的 像 元 数 ， 
进而 计算 语义 分 割 方法 提取 的 苹果 园 面 积 ， 最 后 
计算 其 与 目 视 解 译 面 积 的 相对 精度 ， 并 进行 分 
析 。 其 计算 如 公式 (9) 和 公式 (0) 所 示 。 

A,=PrxA (9) 

KP, AHX, hm; Pr 为 该 类 像 
元 占 比 (Pixel ratio) ; 4 为 该 区 域 总 面积 ，hm”。 
A, -4 
i= Adl x 100% (10) 


0 


Pre=1- 


其 中 ，Pre 为 面积 精度 ; 4 为 不 同 语义 分 割 
方法 提取 的 苹果 园 面积 ，hm; 4 为 目 视 解 译 苹 
采 园 面积 ，hm 。 


2.5 试验 参数 设置 


硬件 平台 为 NVIDIA GeForce RTX 2080S 
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(8G) GPU, 64GB Wy f£ fil i7-9700k CPU, 48 tf 
究 使 用 PyTorch 框 架 搭 建 语 义 分 割 网 络 ， 初 始 学 
习 率 为 1X10“， 优 化 需 选 择 Adam， 迭 代 次 数 设 
置 为 30 次 ,为 防止 训练 后 期 学 习 率 过 大 导致 网 
络 参 数 错 过 全 局 最 优 解 ， 调 整 策 略为 每 迭代 20 
epoch 之后， 学 习 率 变 为 原来 的 0.5 信 ， 权 重 
EWM RIA 107, 动量 设 为 0.9。 


3 结果 与 分 析 


3.1 R_34_Linknet 与 多 种 分 割 算法 对 比 


为 验证 R 34 Linknet 的 有 效 性 ， 本 研究 将 其 
与 多 种 语义 分 割 算法 ,包括 Linknet、SegNet、 
FCN 8s, Unet 和 DeeplabV3+ 网 络 做 了 对 比 实 
验 。 参 数 初始 化 方法 采用 He_uniform 初始 化 方 
st, M [-limit, limit] 中 的 均匀 分 布 中 抽取 样 
本 ， 其 中 1limit 是 sqrt (6/fan in), fan in 是 权 值 
张 量 中 的 输入 单位 的 数量 。 试 验 中 网 络 的 损失 矣 
数 均 采用 NLLLoss。 

不 同 模型 训练 时 的 损失 曲线 和 MIoU 曲线 如 
图 2 所 示 ， 在 测试 集 上 表现 如 表 2 所 示 。 可 知 ， 
R34 Linknet 与 其 他 语义 分 制 网 络 相 在 训练 损失 
曲线 和 测试 集 上 各 指标 表现 有 一 定 优势 ， 其 损失 
曲线 收敛 速度 较 快 ， 且 在 经 过 最 后 一 次 欠 代 时 其 
值 最 小 为 0.004; 在 测试 集 上 MIoU 较 SegNet、 
FCN 8s 、DeeplabV3+ 、UNet 、 原 始 Linknet 网 
络 分 别提 高 13.6%、1.2%、35.4%、 7.4%, 


0.6 [ 
—— SegNet 

0.5 —CN 9 
一 一 DeepLabv3+ 
——UNet 

0.44 —— Linknet 


一 一 R_34 Linknet 


m" 


" " " " " " 
0 5 10 15 20 25 30 
Epoch 


(a) 损失 曲线 


1.2% ， 像 素 精 度 分 别提 高 6.3% 、4.9% 、2.4% 、 
3.196, 0.696. 

图 3 为 多 种 网 络 在 测试 集 上 的 分 割 效果 。 由 
图 3 可 知 ，SegNet 误 提 了 许多 其 他 植被 、 裸 地 、 
田间 道路 等 ， 在 一 些 窗 小 的 地 块 容易 出 现 漏 提 ， 
提取 结果 较为 杂乱 ; DeeplabV3+ 和 UNet 相对 
SegNet 有 较 大 提升 ， 但 同样 误 提 了 裸 地 、 其 他 植 
被 等 。Linknet 的 苹果 园 提取 效果 相对 较 好 ， 减 
少 了 裸 地 、 其 他 植被 的 干扰 ， 但 在 地 块 边界 细节 
处 理 上 较 差 ， 同 时 也 没 能 完全 避免 田间 道路 的 影 
响 。R_34_Linknet 相 比 于 其 它 网 络 ， 提 取 的 苹果 
园 受 到 田间 道路 、 其 他 植被 影响 较 小 ， 在 田 
块 边界 细节 上 有 了 较 大 提升 。SegNet、FCN_ 
8s、DeeplabV3+、UNet、 原 始 Linknet 网 络 和 R_ 
34_Linknet 在 苹果 园 这 一 类 别 的 提取 精度 分 别 为 
86.3%、 87.2%, 89.5%, 88.7%, 92.0% 和 
92.8%， 在 苹果 园 这 一 类 别提 取 精 度 R_34_ 
Linknet 高 于 其 它 网 络 。 

表 2 各 模型 在 测试 集 上 的 表现 


Table 2 Performances of models on test set 


DETTE F /% PA/% MIoU/%  FWIoU/% mPA/% 


SegNet 84.2 86.0 67.6 76.0 77.9 
FCN_8s 85.0 87.4 69.2 76.9 78.6 
DeeplabV3+ 85.9 89.9 75.8 81.2 88.3 
UNet 84.6 89.2 73.8 80.7 82.4 
Linknet 863 91.7 80.0 85.0 88.6 

R 34 linknet 87.1 92.3 81.2 85.7 89.6 


0 5 10 


15 20 25 30 
Epoch 


(b)MIoU 曲线 


图 2 不 同 模型 训练 损失 曲线 和 MIoU 曲线 


Fig. 2 Training loss curves and MIoU curves of different models 


ChinaXiv 合 作 期 刊 


101 


202302.00145v1 


chinaXiv 


输入 图 像 


DeeplabV3+ 


Babe 


FCN 8s R34 Linknet 


(a) 各 模型 提取 结果 对 比 1 


SegNet 


输入 图 像 


FCN 8s R34 Linknet 


(c) 各 模型 提取 结果 对 比 3 


输入 图 像 Ground Truth SegNet 
a i i n B 
UNet Linknet 


DeeplabV3+ 
R 34 Linknet 


(b) 各 模型 提取 结果 对 比 2 


FCN 8s 


DeeplabV3+ 


« 


FCN 8s 


t 


R 34 Linknet 


(d) 各 模型 提取 结果 对 比 4 


图 3 不 同 输入 图 像 各 模型 提取 结果 对 比 


Fig.3 Comparison of extraction results of the models with different import pictures 


3.2 ASPP 和 ASPP- fi] A P £& R. 34. 
Linknet 前 后 对 比 


为 验证 ASPP 和 ASPP+ 在 无 人 机 遥感 影像 上 
苹果 园 提取 的 效果 ， 本 研究 将 二 者 分 别 加 入 R_ 
34 Linknet 得 到 R 34 Linknet ASPP 和 R 
34 Linknet ASPP+ 网 络 ， 并 对 比 研究 了 加 入 前 后 


0.30 
一 一 R_34 Linknet 
0.25 + ———R 34 Linknet ASPP 
——— R 34 Linknet ASPP- 
0.20 上 
2 
20.15 - 
=) 
0.10 上 
0.05 上 
0.00 上 
1 1 L - i ; : 
0 5 w QI, 20 2 30 
Epoch 
(a) Jf A wh 2X, 


的 提取 精度 。 其 训练 损失 曲线 和 MIoU 曲线 变化 
如 图 4 所 示 ， 各 项 评价 指标 如 表 3 所 示 。 加 入 
ASPP 之 后 MIoU 提 高 2.1%， 像 素 精 度 提高 1.1% ， 
加 入 ASPP+ 之 后 MIoU 和 像素 精度 又 分 别提 高 
2.2% 和 1.3%。 由 图 4 可 知 ，ASPP 能 够 有 效 提高 
网 络 的 MIoU， 同 时 没有 影响 网 络 训练 时 的 收敛 
速度 ， 证 明了 ASPP 及 ASPP+ 的 有 效 性 。 


———R 34 Linknet ASPP+ 
———R 34 Linknet ASPP 
——R 34 Linknet 


1 1 1 1 1 
0 5 10 15 20 25 30 
Epoch 


(b)MIOU 曲线 


图 4 三 种 改进 模型 训练 损失 曲线 和 MIoU 曲线 


Fig. 4 Training loss curves and MIoU curves of three improved models 


通过 训练 损失 曲线 图 2 和 图 4 可 以 看 出 ， 各 
模型 的 损失 值 随 着 训练 次 数 的 增加 而 减 小 ， 
MIoU 值 随 着 训练 次 数 的 增加 而 提高 。 由 表 2 和 
表 3 可 知 本 研究 改进 算法 R_34_Linknet ASPP+ 在 


测试 集 上 各 指标 表现 最 好 。 图 5 为 各 网 络 在 测试 
集 上 的 提取 效果 ， 可 以 看 出 , 图 5 (a), AIS (b) 
和 图 5 (c) 的 R 34 Linknet ASPP 4I R_ 
34 Linknet_ASPP+#¢R_34 Linknet 提 取 的 苹果 
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表 3 三 种 模型 各 项 评价 指标 地 块 边缘 处 更 加 平滑 ， 准 确 。 通 过 计算 图 5 (d) 
Table 3 Evaluation indicators ofthree models R 34 Linknet ASPP 和 R 34 Linknet ASPP+ 提 
分 割 方法 F/^ PA MIoU/% FWIoU/% MPA/% PE BSSER paf 7o BL R34 Linknet bui AY 
R 34 Linknet — 87.1 923 812 85.7 89.6 苹果 园 像 元 总 数 更 接近 Ground Truth rP 318 pa f 
R 34 Linknet ASPP 87.9 93.4 83. 87.7 90.6 元 总 数 。 
R 34 Linknet ASPP+ 88.3 94.7 85.5 89.0 92.3 


Ground Truth 


R.34 Linknet 


R_34_Linknet_ASPP — R 34 Linknet ASPP- 


(a) 各 模型 提取 结果 对 比 1 


Ke 


Ground Truth 


"~an, 


R 34 Linknet ASPP R_34_Linknet_ASPP+ 


(c) 各 模型 提取 结果 对 比 3 


R 34 Linknet 


R 34 Linknet ASPP — R 34 Linknet ASPP+ 


(b) 各 模型 提取 结果 对 比 2 


Ground Truth R 34 Linknet 


R 34 Linknet ASPP — R. 34 Linknet ASPP+ 


(d) 各 模型 提取 结果 对 比 4 


图 5 各 模型 提取 结果 对 比 


Fig. 5 Extraction results comparison of the models 


本 研究 改进 的 深度 学 习 语 义 分 制 算 法 
R 34 Linknet ASPP+， 在 各 种 复杂 背景 下 ， 有 
很 好 的 提取 效果 。 其 分 割 结果 对 比如 图 3 和 图 5 
Bros. 分 析 发 现 其 精度 较 高 的 原因 是 把 Rest- 
Net34 ?" 迁移 到 Linknet 网 络 并 在 编码 器 和 解码 
器 之 间 添 加 了 ASPP+ ”结构 ， 如 图 5 中 R_ 
34 Linknet ASPP+ 对 图 像 中 边界 提取 的 准确 性 最 
好 ， 说 明 随 着 训练 的 进行 ， 该 模型 学 习 到 了 关于 
苹果 园 较 多 有 效 的 特征 ， 在 预测 时 边界 处 的 像素 
点 能 够 较 好 地 紧密 相连 。 如 图 5 (a) 中 输入 图 像 
含有 抽穗 期 的 小 麦 且 颜色 纹理 与 周围 苹果 园 较为 
相似 ; 图 5 (b) 和 图 $ (c) 中 两 张 输入 图 像 含 
有 成 熟 期 的 夏 玉 米 、 收 制 之 后 的 麦 荐 地 及 裸 地 ， 
且 这 三 种 土地 类 型 较为 相似 ; 图 6 (d) 输入 图 像 
中 的 苹果 园 里 覆 有 反光 膜 且 较为 明亮 。 模 型 通过 
对 复杂 背景 中 标签 图 像 的 学 习 ， 更 加 适用 于 实际 


环境 ， 也 具有 更 强 的 鲁 棒 性 。 
3.3 R_34_Linknet_ASPP+ 的 应 用 


经 过 3.1 和 3.2 的 分 析 可 知 ，R_34_Linknet_ 
ASPP+ 相 较 于 其 它 分 割 算法 各 指标 表现 最 优 ， 为 
进一步 验证 R 34 Linknet ASPP+ 的 实际 分 制 效 
果 ， 利 用 该 模型 对 长 武 县 王 东 沟 小 流域 和 白水 县 
通 积 村 这 两 个 区 域 苹果 园 的 空间 分 布 进行 提取 , 
并 对 提取 面积 进行 精度 分 析 。 

使 用 PhotoScan1.4.5 软件 对 长 武 县 王 东 沟 和 
白水 县 通 积 村 的 航 片 进行 拼接 US ERR EAR 
沟 和 白水 县 通 积 村 的 地 理 位 置 、 完 整 正 射 影像 以 
及 高 空 局 部 航 片 如 图 6 所 示 ， 其 完整 正 射影 像 面 
积分 别 为 8.3 和 1.5 km ， 本 节 所 用 数据 采集 时 间 
分 别 为 2021 年 6 月 21 日 至 22 日 (长 武 县 王 东 
沟 )、2021 年 6 月 23 日 (白水 县 通 积 村 )。 
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(a3) 高 空 局 部 航 片 
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(b) 王 东 沟 地 理 位 置 、 完整 正 射影 像 及 高 空 局 部 航 片 
注 :基于 自然 资源 部 标准 地 图 服务 网 站 GS(2016)1550 号 标准 地 图 制作 , 底 图 边界 无 修改 
图 6 通 积 村 和 王 东 沟 地 理 位 置 完整 正 射影 像 及 高 空 局 部 航 片 


Fig. 6 Geographical locations , complete orthophotos and high-altitude partial aerial photographs of Wangdonggou and 
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各 模型 对 长 起 县 王 东 沟 和 白水 县 通 积 村 苹果 
园 面积 提取 精度 如 表 4 和 表 5 所 示 。 
AA 长 武 县 王 东 沟 苹果 园 面积 提取 精度 


Table 4 Area extraction accuracy of Wangdonggou apple or- 


chard in Changwu County 
提取 面 目 视 解 译 。 ”面积 精 
分 割 方法 
积 /hm 面积 /hm 度 /% 
SegNet 157.17 87.26 
FCN_8s 125.48 90.01 
DeeplabV3+ 127.30 91.32 
UNet 150.48 92.06 
139.41 
Linknet 129.21 92.68 
R 34 linknet 129.67 93.01 
R 34 Linknet ASPP 130.54 93.64 
R 34 Linknet ASPP+ 131.35 94.22 


从 表 4 和 表 5 中 结果 可 以 看 出 ， 同 一 模型 在 
长 武 县 王 东 沟 和 白水 县 通 积 村 苹果 园 面积 提取 精 
度 方 面 表现 基本 相同 ， 是 由 于 两 地 的 种 植 结 构 以 
及 正 射 影像 中 的 地 物 类 型 基本 相同 。 在 王 东 沟 和 
通 积 村 都 表现 出 R 34 Linknet、R 34 Linknet_ 
ASPP, R 34 Linknet ASPP+ 这 三 种 语义 分 割 方 
法 整体 上 比 另外 五 种 语义 分 割 方法 精度 高 。 本 研 


表 5 白水 县 通 积 村 苹果 园 面积 提取 精度 


Table 5 Aera extraction accuracy of apple orchard area in 
Tongji Village, Baishui County 
提取 面 目 视 解 译 


分 制 方法 mw 面积 bm? 面积 精度 /% 
SegNet 49.62 89.65 
FCN 8s 41.04 91.27 
DeeplabV3+ 41.94 93.26 
UNet 48.31 92.57 

44.97 

Linknet 42.16 93.76 
R 34 linknet 42.24 93.94 
R 34 Linknet ASPP 42.52 94.56 
R 34 Linknet_ASPP+ 42.93 95.46 


究 三 种 改进 算法 中 ，R_34 Linknet ASPP+ 精 度 
最 高 ， 在 王 东 沟 和 通 积 村 苹果 园 面积 提取 精度 分 
别 为 94.22% 和 95.46%, TE -E ZR WA 3 EG R 
34 Linknet, R 34 Linknet ASPP 高 出 1.21% 和 
0.58%; 在 通 积 村 分 别 比 R 34 Linknet, R_ 
34 Linknet ASPP 高 出 1.70% 和 0.90%。 

基于 R 34 Linknet ASPP+ 语 义 分 割 方法 提 
取 的 长 武 县 王 东 沟 和 白水 县 通 积 村 苹果 园 空 间 分 
布 如 图 7 所 示 。 


图 例 
| EI 
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(a) 长 武 县 王 东 沟 


(b) 和 白水 县 通 积 村 


图 7 苹果 园 空 间 分 布 提取 结果 


Fig. 7 Extraction results of the spatial distribution of apple orchards 
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本 研究 针对 黄土 高 原 苹 果园 分 布 信息 提取 ， 
提出 了 一 种 更 加 高 效 精准 的 提取 方法 ， 保 证 了 苹 
果园 提取 的 准确 性 ， 提 取 到 的 苹果 园地 块 边缘 处 
效果 更 好 。 

(1) 根据 黄土 高 原 无 人 机 影像 的 特点 ， 制 作 
了 面向 该 区 无 人 机 低空 遥感 影像 苹果 园 识别 的 专 
业 数 据 集 ， 包 含 各 种 场景 的 苹果 园 无 人 机 遥感 
影像 。 

(2) 融合 迁移 学 习 与 深度 学 习 方 法 ， 将 残 差 
神经 网 络 ResNet34 网 络 迁 移 到 Linknet 网 络 ， 得 
到 R 34 Linknet 网络 。 将 R_34_Linknet 网 络 与 5$ 
种 常用 的 深度 学 习 语 义 分 割 模型 SegNet、FCN_ 
8s、DeeplabV3+、UNet 和 Linknet 应 用 于 黄土 高 
原 苹果 园 空间 分 布 提取 ， 表 现 最 好 的 模型 为 R_ 
34_Linknet， 其 在 测试 集 上 的 调和 平均 值 下 为 
87.1%， 像 素 准 确 度 PA 为 92.3%， 均 交 并 比 
MIoU 为 81.2%， 频 权 交 并 比 FWIoU 为 85.7%, 
平均 像素 准确 度 MPA 为 89.6%。 

(3) 将 空间 金字 塔 池 化 结构 (Atrous Spatial 
Pyramid Pooling, ASPP) 与 R 34 Linknet 网 络 
相 结 合 ， 扩 大 网 络 的 感受 野 ， 得 到 R 34_ 
Linknet ASPP 网 络 ; 然后 对 ASPP 结构 进行 改 
进 ， 得 到 R 34 Linknet ASPP+ 网 络 。 对 比 三 种 
网 络 性 能 ， 表 现 最 优 的 为 R_34_Linknet_ASPP+， 
在 测试 集 上 已 为 86.3%，PA 为 94.7%，MIoU 为 
82.7%, FWIoU 为 89.0%，MPA 为 92.3%。 使 用 
R. 34 Linknet ASPP+ 在 长 武 县 王 东 沟 和 白水 县 
通 积 村 提取 苹果 园 面 积 精度 分 别 为 94.22% 和 
95.66%。 在 王 东 沟 分 别 比 人 34 Linknet、R_ 
34 Linknet ASPP 高 出 1.21% 410.5896; 在 通 积 
村 分 别 比 R 34 Linknet, R 34 Linknet ASPP 高 
出 1.70% fI 0.9096. 
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Accurate Extraction of Apple Orchard on the Loess 
Plateau Based on Improved Linknet Network 


ZHANG Zhibo', ZHAO Xining”, GAO Xiaodong’, ZHANG Li, YANG Menghao’ 


(1. College of Water Resources and Architectural Engineering, Northwest A& F University, Yangling 712100, China; 
2. Institute of Soil and Water Conservation, CAS & MWR, Yangling 712100, China) 


Abstract: The rapid increasing of apple planting area on the Loess Plateau has exerted an important influence on the regional 
eco-hydrology and socio-economic development. However, the orchards in this area are small and complex, and there are only 
county or city scale statistical data, lack of actual spatial distribution information. To this end, for the extraction of apple or- 
chards on the Loess Plateau, in this study, a professional dataset of low-altitude remote sensing images acquired by unmanned 
aerial vehicle was firstly established. The R. 34 Linknet network and other five commonly used deep learning semantic segmen- 
tation models SegNet, FCN 8s, DeeplabV3+, UNet and Linknet were applied to the spatial distribution extraction of apple or- 
chards on the Loess Plateau, and the best-performing model was R. 34 Linknet, with a F1 score of 87.196, a pixel accuracy (PA) 
of 92.3%, an mean intersection over union (MioU) of 81.2%, a frequency weighted intersection over union (FWIoU) of 85.7%, 
and the mean pixel accuracy (MPA) was 89.6%. The spatial pyramid pool structure (ASPP) and R 34 Linknet network was 
combined to expand the receptive field of the network and get R. 34 Linknet ASPP network, and then ASPP structure was im- 
proved. Combining the spatial pyramid pooling (ASPP) with the R. 34 Linknet network to expand the receptive field of the net- 
work and obtain a R. 34 Linknet ASPP network; Then the ASPP structure was improved to get a R 34 Linknet ASPP- net- 
work. The performance of the three networks were compared. R. 34 Linknet ASPP- got the best performance, with 86.3% for 
F,, 94.7% for PA, 82.7% for MIoU, 89.0% for FWIoU, and 92.3% for MPA on the test set. The accuracy of apple orchard ex- 
traction in Wangdonggou, Changwu County and Tongji Village, Baishui County using R. 34 Linknet ASPP+ were 94.22% and 
95.66%, respectively. In Wangdonggou, it was 1.21% and 0.58% higher than R. 34 Linknet and R 34 Linknet ASPP, respec- 
tively. In Tongji village, it was 1.70% and 0.90% higher than R. 34 Linknet and R. 34 Linknet ASPP, respectively. The results 
show that the proposed R. 34 Linknet ASPP-- method can extract apple orchards accurately, the edge treatment of apple or- 
chard plots is better, the method can be used as the technical support and theoretical basis for research on the spatial distribution 
mapping of apple orchards on the Loess Plateau. 
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